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基于 深度 学 习 的 单 图 像 超 分 辩 率 重建 研究 综述 
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摘 要 : 为 深入 了 解 基于 深度 学 习 的 单 图 像 超 分 辩 率 重建 (single image super-resolution，SISR) 的 发 展 ， 把 握 当 前 研 
究 的 热点 和 方向 ， 针 对 现 有 基于 深度 学 习 的 单 图 像 超 分 状 窑 重建 模型 进行 了 梳理 。 首 先 介 绍 了 相关 深度 学 习 算 法 ; 
然后 介绍 了 基于 深度 学 习 的 模型 以 及 评价 指标 ， 并 通过 实验 对 比分 析 现 有 模型 的 性 能 ， * 目的 在 于 从 本 质 上 了 解 基 
于 深度 学 习 的 单 图 像 超 分 辨 率 重 建 模型 的 优势 ; 最 后 对 单 图 像 超 分 辨 率 重建 的 关键 问题 进行 了 总 结 ， 并 对 未 来 的 发 
展 趋势 进行 了 展望 。 
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Survey of single image super resolution based on deep learning 


Nan Fangzhe, Qian Yurong, Xing Yanni, Zhao Jingxia 
(College of Software, Xinjiang University, Urumqi 830046, China) 


Abstract: In order to understand the development of single image super-resolution reconstruction (SISR) based on deep 
learning and grasp the hotspots and directions of the current research, this paper combs the existing model of single image 
super-resolution reconstruction based on deep learning. Firstly, the paper introduces the related deep learning algorithm, 
these models based on deep learning and their evaluation index. In addition, it compares the performance of existing models 
through experiments, which aims to understand the advantages of single-image super-resolution reconstruction model based 
on deep learning. Finally, the paper summarizes the key issues of single-image super-resolution reconstruction, and 
prospects the future development trends. 
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于 深度 学 习 在 其 他 计算 机 视觉 领域 中 取得 的 突破 性 进 
们 尝试 引入 深度 神经 网 络 ， 通 过 构建 深层 次 的 网 络 进 
端的 训练 来 解决 图 像 超 分 辨 率 重建 问题 。 如 文献 [9] 
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0 引言 
图 像 超 分 辨 率 重 建 就 是 指 由 一 张 低 分 辨 率 (low- — frim 
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resolution，LR) 图 像 或 者 图 像 序列 恢复 出 高 分 辨 率 (high- ”将 多 层 协 作 自 动 编码 器 堆肥 在 一 起 ， 以 实现 自 相 似 贴 片 的 稳 

resolution, HR) 图 像 的 技术 凹 。 高 分 辨 率 图 像 像素 密度 高 ， 可 健 匹配 。 深 度 卷 积 神经 网 络 00 和 反 卷 积 网 络 0 被 设计 为 以 类 

获取 细节 多 ， 在 实际 应 用 中 不 可 或 缺 。 目 前 超 分 辨 率 重 建 以 于 耦合 稀 玻 编码 的 方式 直接 学 习 从 LR 空间 到 HR 空间 的 
Ws (Super-Resolution, SR) 可 分 为 两 类 , 分 别 是 从 多 张 低 分 辩 率 图 非 线性 映射 02。 

像 重 建 出 高 分 辩 率 图 像 和 从 单 张 低 分 辩 率 图 像 重建 出 高 分 辩 1 ”深度 学 习 

率 图 像 。 由 单一 LR 图 像 生 成 HR 图 像 的 技术 已 被 广泛 应 用 Ta 

于 高 光谱 成 像 、 医 学 成 像 、 卫 星 遥 感 等 方面 ， 其 应 用 的 灵活 1.1 深度 学 习 概念 

简便 及 实用 性 , 使 得 单 图 像 超 分 辩 率 重建 得 到 了 广泛 的 关注 。 深度 学 习 (deep learning，DL) 源 于 人 工 神经 网 络 ， 其 概念 

本 文 将 主要 介绍 基于 单 张 低 分 辨 率 的 重建 方法 (single image 由 Hinton 等 人 03 在 2006 年 提出 ， 由 此 开启 了 深度 学 习 在 学 

super-resolution, SISR). 术 界 和 工业 界 的 浪潮 。DL 作为 机 器 学 习 研 究 的 新 领域 ， 通 


传统 的 SISR 的 方法 包括 基于 插值 的 算法 ， 如 双 三 插值 过 模仿 人 脑 的 机 制 来 解释 数据 ,让 机 器 自动 学 习 良 好 的 特征 ， 
法 和 Lanczos 重 采 样 算法 阅 ， 基 于 重建 的 算法 ， 如 人 迭代 反 投 ”” 免 去 人 工 选取 过 程 叫 。 目 前 深度 学 习 在 模型 、 算 法 、 硬 件 设 
影 IBPBI、 最 大 后 验 概 率 (maximum a posterior, MAP), HR —— 施 与 开发 社区 四 方面 已 经 取得 了 重大 突破 053， 解 决 了 以 往 神 
投影 法 (projection onto convex sets，POCS)PI;， 以 及 基于 学 马 经 网 络 优化 困难 、 应 用 受 限 、 计 算 缓 慢 、 认 可 度 不 高 等 问题 。 
的 算法 ， 如 邻居 嵌入 和 局 部 线性 嵌入 中方 法 、 稀 玻 编码 mm 和 目前 在 单 图 像 超 分 辩 率 重建 问题 中 常用 的 深度 学 习 网 络 有 卷 
稀 跑 编码 网 络 由 。 这 些 方法 或 利用 相同 图 像 的 内 部 相似 ,， 或。 积 神经 网 络 、 深 度 残 差 网 络 、 循 环 神经 网 络 、 密 集 卷 积 网 络 、 
学 习 外 部 低 分 辨 率 和 高 分 辨 率 样本 对 的 映射 函数 ， 虽 然 注重 ”生成 式 对 抗 网 络 等 。 
学 习 和 优化 字典 ， 但 是 上 述 方法 的 其 余 步 又 很 少 在 统一 优化 
框架 中 进行 优化 或 考虑 。 
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1.2 深度 学 习 模型 介绍 
1.2.1 卷 积 神经 网 络 
近年 来 ， 图 像 特 征 的 提取 与 选择 一 直 是 计算 机 视觉 领域 
的 一 个 基础 而 重要 的 研究 方向 ， 卷 积 神经 网 络 (convolutional 
neural network, CNN) 提 供 的 端 到 端的 学 习 模 型 可 以 通过 传统 
的 梯度 下 降 方 法 训练 学 习 图 像 特征 09， 相 比 于 其 他 神经 网 络 
方法 , CNN 更 适合 应 用 于 图 像 特征 的 学 习 与 表达 。 目前 CNN 
已 成 为 计算 机 视觉 中 深度 学 习 算 法 的 关键 。CNN 最 早 可 追溯 
到 15 年 前 074, 近 年 来 由 于 它 在 图 像 分 类 上 的 成 功 081， 出 现 了 
爆炸 性 的 流行 。CNN 主要 由 输入 层 、 卷 积 层 、 池 化 层 、 全 连 
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1.2.3 递归 (循环 ) 神 经 网 络 

循环 神经 网 络 (recurrent neural networks, RNN) 29 中 神 
经 元 的 输出 可 以 在 下 一 个 时 间 惟 直接 作用 到 自身 ， 克 服 了 全 
连接 的 CNN 网 络 中 存在 的 问题 ， 如 每 层 神经 元 的 信号 只 能 
上 一 层 传播 、 样 本 的 处 理 在 各 个 时 刻 相互 独立 、 无 法 对 时 
序列 进行 建 模 等 RNN 的 基本 思想 是 : 将 上 一 个 时 刻 的 输 
和 当前 时 刻 的 输入 同时 作为 当前 网 络 输入 ， 从 而 得 到 该 时 
的 输出 ， 然 后 不 断 迭 代 上 述 过 程 。 对 比 CNN 通过 卷 积 运 
共享 权重 从 而 减少 计算 量 的 思想 , RNN 从 头 到 尾 所 有 的 权 
都 是 公用 的 , 不同 的 只 是 输入 和 上 一 时 刻 的 输出 。RNN 已 


HEAR, J£ EE 1 所 示 。 再 加 之 功能 强大 的 GPU 的 有 
效应 用 9、 激活 函数 ReLUI2ol 的 出 现 ， 使 得 CNN 在 保持 良 
好 训练 效果 的 同时 收敛 速度 更 快 ， 可 以 轻松 地 访问 大 量 数据 
(如 ImageNet CD， 因 此 基于 CNN 的 单 图 像 超 分 辩 率 重建 方 
法 也 在 不 断 进步 。 
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图 1 卷 积 神经 网 络 的 概念 结构 图 
Fig.1 Conceptual structure diagram of CNN 
1.2.2 深度 残 差 网 络 
里 论 上 在 特征 提取 时 增加 网 络 的 深度 或 者 宽度 ， 提 取 到 
的 细节 与 抽象 能 力 就 越 丰富 ， 然 而 仅仅 进行 简单 的 层 数 增加 
操作 ， 会 出 现 梯度 爆炸 或 梯度 弥散 的 问题 。 传 统 解决 方法 如 
数据 初始 化 Cormlized initializatiton) 和 正则 化 ( batch 
normlization) 操作 ， 虽 然 解决 了 梯度 问题 ， 但 是 会 导致 网 络 
性 能 退化 。 残 差 (ResNet) 网 络 [ 妆 则 克服 了 神经 网 络 深度 增加 
导致 性 能 易 退 化 的 缺点 ， 其 主要 思想 是 在 标准 的 前 馈 卷 积 网 
络 上 ， 添 加 一 个 跳跃 得 以 绕 过 一 些 层 的 连接 ， 使 网 络 模型 能 

够 在 保证 网 络 性 能 的 同时 ， 通 过 增加 深度 来 提高 网 络 性 能 。 


其 结构 如 图 2 所 示 。 
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图 2” 残 差 网 络 结构 
Fig.2 Structure diagram of residual network 


在 SISR 问题 中 输入 的 低 分 辨 率 图 像 和 输出 的 高 分 辨 率 


图 像 在 很 大 程度 上 是 相似 的 ， 即 低 分 辩 率 图 像 携带 的 低频 信 
息 与 高 分 辩 率 图 像 的 低频 信息 相近 。 为 节约 训练 时 间 ， 只 需 
要 学 习 高 分 辩 率 图 像 与 低 分 辨 率 图 像 之 间 的 高 频 部 分 残 差 即 
可 。 残 差 网 络 结构 的 思想 特别 适合 用 来 解决 此 问题 ， 且 残 差 
网 络 已 经 被 广泛 应 用 到 计算 机 视觉 请 、 图 像 识别 P9、 行 人 监 
测 3! 等 相关 领域 的 模型 中 。 


成 功 运用 到 机 器 翻译 1、 语音 识别 281、 图 像 自动 生成 291 
领域 。 研 究 者 们 经 实验 发 现 RNN 在 加 深 网 络 深度 的 同时 ， 
岂可 提高 网 络 的 准确 率 。RNN 结构 如 图 3 所 示 。 
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图 3 RNN 结构 
Fig.3 Structure diagram of RNN 

1.2.4 生成 式 对 抗 网 络 

生成 式 对 抗 网 络 (generative adversarial networks, GAN) 
是 Goodfellow 等 人 G9 在 2014 年 提出 的 一 种 生成 式 模型 。 结 
构 如 图 4 所 示 。 其 思想 受 博弈 论 中 的 二 人 零 和 博弈 ( 即 二 人 的 
利益 之 和 为 零 ， 一 方 的 所 得 正 是 男 一 方 的 所 失 ) 的 启发 ， 由 一 
个 生成 器 和 一 个 判别 器 构成 。 生 成 器 捕捉 真实 数据 样本 的 洪 
在 分 布 ， 并 生成 新 的 数据 样本 ;判别 器 是 一 个 二 分 类 器 ， 判 
别 输入 的 是 真实 数据 还 是 生成 数据 。 生 成 器 和 判别 器 均 可 采 
用 深度 神经 网 络 模型 实现 B1。GAN 发 展 至 今 ， 其 家 族 在 不 
断 扩 大 , 常用 的 模型 有 DCGANP?!, InfoGAN I, EBGANP"!, 
Improved GANU?!, WGAND9!, H itj GAN 己 经 在 图 像 处 理 B71， 
计算 机 视觉 8 中、 语音 识别 B99 等 方面 得 到 了 应 用 。 相 较 于 其 他 
方法 ， 加 入 GAN 算法 的 模型 能 充分 利用 图 像 信 息 ， 所 以 模 
型 的 准确 率 均 有 提高 。 
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K4 GAN 结构 

Fig. 4 Structure diagram of GAN 
1.2.5 密集 卷 积 网 络 
在 深度 学 习 网 络 中 ， 随 着 网 络 深 度 的 增加 ， 梯 度 消失 问 
题 会 愈加 明显 。 目 前 很 多 论文 都 针对 这 个 问题 提出 了 解决 方 
案 ， 如 ResNet、Highway Networks!^?, Stochastic depth“, 
FractalNets! 和 94 等。 尽管 这 些 算法 的 网 络 结构 有 差别 ， 但 是 核 
心 都 在 于 创建 从 早期 图 层 到 后 期 图 层 的 短路 径 。 考 虑 到 在 保 
证 网 络 中层 与 层 之 间 最 大 程度 的 信息 传输 的 前 提 下 ， 直 接 将 
所 有 层 连 接 起 来 则 可 以 进行 有 效 训练 ， Huang FASHE H 


了 密集 卷 积 网 络 (dense convolutional network，DenseNet)。 该 
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网 络 模型 的 主要 思想 为 : 假设 模型 有 工 层 ， 传 统 的 神经 网 络 基于 插值 预 处 理 的 方法 还 有 DRCN, DRRNP?!, 
就 会 有 工 个 连接 ， 而 在 DenseNet P, 会 有 L(L+1)/2 个 连接 ， IRCNNP!, MemnetP?!fli SDSR063 和 等。 其 中 DRCN 和 DRRN 
即 每 层 的 输入 都 来 自前 面 所 有 层 的 输出 。 网 络 结构 如 图 5$ 所 是 在 原 有 CNN 模型 的 基础 上 加 入 了 RNN 的 思想 , 增加 网 络 
示 。 该 网 络 可 以 缓解 消失 梯度 问题 ， 加 强 特征 传播 ， 鼓 励 特 的 深度 ， 提 高 了 模型 的 效率 。 


征 重用 ， 并 大 幅 减少 参数 数量 。DenseNet 一 经 提出 得 到 了 广 2.2 基于 原始 图 像 处 理 的 模 
泛 的 应 用 ， 如 语义 切割 唤 、 语 音 识 别 呈 和 图 像 分 类 [9 等 。 基于 插值 的 深度 学 习 方 法 最 大 缺点 是 原始 LR 图 像 需要 
经 过 插值 预 处 理 ， 这 个 预 处 理 步 又 不 仅 容易 平方 地 增加 计算 
复杂 度 ， 而 且 会 导致 原始 LR 图 像 过 度 平滑 和 模糊 ， 更 易 丢 
失 一 些 细节 。 目 前 研究 者 们 主要 在 现 有 基于 插值 预 处 理 的 模 
型 的 基础 上 利用 反 卷 积 层 和 子 像素 卷 积 层 对 模型 结构 进行 改 
进 ， 直 接 对 原始 图 像 进 行 处 理 来 解决 插值 预 处 理 问 题 。 

反 卷 积 网 络 可 以 看 做 是 卷 积 层 的 逆 过 程 , 假设 步 长 为 n， 
可 以 把 原始 图 像 尺 寸 放 大 nn 倍 ， 实 现 上 采样 的 操作 。 反 卷 积 
层 用 于 解决 插值 预 处 理 过 程 ， 如 Dong 等 人 5 针对 图 像 超 分 
辩 重 建 插值 预 处 理 问 题 基 于 CNN, 利用 反 卷 积 层 的 方法 提出 
Y  FSRCNN(fast super-resolution convolutional neural 
networks) {K #!. FSRCNN 直接 将 原始 的 低 分 辩 率 图 像 输入 到 
四 络 中 ， 使 用 更 小 的 卷 积 核 和 更 多 的 映射 层 ， 且 映射 层 是 可 


H 


Ez1 


共享 的 ， 可 以 训练 不 同上 采样 倍率 。FSRCNN 可 以 分 为 特征 
图 5 DenseNet 结构 是 取 、 缩 小 、 上 映射、 扩展 和 反 卷 积 五 个 部 分 。 前 四 个 部 分 是 
Fig.5 Structure diagram of densenet 卷 积 层 ， 而 最 后 一 个 是 反 卷 积 层 。 该 模型 与 SRCNN 一 样 采 
2 ”其 于 深度 学 习 的 单 图 像 超 分 辩 率 模型 用 MSE 作为 损失 函数 ， Be (3) 所 示 。 
a — ning 37, [roo - G) 
前 常用 的 深度 学 习 的 模型 可 根据 图 像 的 输入 信息 、 训 n 
练 过 程 和 特征 提取 以 及 高 频 细节 的 应 用 等 将 基于 深度 学 习 的 其 中 : Xi 、Y' 表 示 训 练 样本 中 第 i 个 LR 和 HR 对 应 的 图 。 
单 图像 超 分 状 率 模型 分 为 基于 插值 预 处 理 的 模型 、 基 于 原始 RED65 采 用 对 称 的 卷 积 层 一 反 卷 积 层 网 络 结构 ， 作 为 一 个 编 
图 像 处 理 的 模型 、 基 于 分 层 特征 的 模型 和 基于 高 频 细节 的 模 ，” 码 一 解码 框架 ， 直 接 学 习 由 低 分 辩 率 图 像 到 高 分 辩 率 图 像 端 
型 四 大 类 。 到 端的 映射 。LapSRN659 采 用 卷 积 层 和 反 卷 积 层 交 蔡 连接 的 
2.1 基于 插值 预 处 理 的 模型 方式 ， 构 造 一 个 多 级 的 网 络 解决 基于 插值 的 问题 。 
基于 插值 预 处 理 的 模型 的 主要 思想 为 : 原始 图 像 输入 前 子 像素 卷 积 层 是 另 一 种 解决 插值 预 处 理 问题 的 方法 。 划 
需 经 过 插值 预 处 理 把 图 像 放 大 到 规定 目标 尺寸 。 现 有 的 基于 思想 将 最 后 一 层 卷 积 层 输出 的 特征 个 数 设 置 成 固定 值 ， 即 放 


插值 预 处 理 的 模型 所 用 到 的 深度 学 习 网 络 有 CNN、RNN 和 大 倍数 + 的 平方 ， 保 证 总 的 像素 个 数 与 要 得 到 的 高 分 辩 率 图 
残 差 网 络 以 及 三 者 的 集合 。 像 一 致 ,将 像素 进行 重新 排列 得 到 高 分 辩 率 图 。 例 如 Wenzhe 
SRCNN(super-resolution convolutional neural network)?! Shi 等 人 67 提出 一 种 新 颖 的 CNN 架构 ESPCN, 其 在 LR 空间 
是 最 早 运 用 深度 学 习 方法 在 LR 与 HR 之 间 建 立 端 到 端 映射 中 直接 提取 特征 图 ， 通 过 引入 有 效 的 子 像素 卷 积 层 ， 学 习 升 
的 SISR 模型 , 其 输入 图 像 采用 了 插值 预 处 理 的 方法 .SRCNN 级 滤波 器 阵列 ， 将 最 终 的 LR 特征 图 放大 到 HR 中 。 该 方法 
的 结构 简单 ， 仅 用 了 三 个 卷 积 层 ， 分 别 对 应 图 像 块 的 提取 和 有 效 地 将 SR 管道 中 的 手工 双 立 方 滤波 器 蔡 换 为 针对 每 个 特 
特征 表示 、 特 征 非 线性 映射 和 重建 。 由 于 均 方 误差 是 数据 序 征 映射 专门 训练 的 更 复杂 的 放大 滤波 器 ,同时 降低 了 整个 SR 
列 与 真实 值 之 间 的 关系 ， 采 用 均 方 误差 作为 该 模型 的 损失 也 操作 的 计算 复杂 度 。ESPCN 的 损失 函数 为 

数 ， 如 式 OD 所 示 。 


LO) = TELF- xp (D 


[o 


1 rH rW n TN 
Mn ba) = mg 22s 224 05, T 6207) 4) 


SRResNet53 和 EDSR 59 同 样 采用 了 有 效 的 亚 像素 卷 积 
SRCNN 较 传 统 的 模型 (SC、K-SVD、ARN) 在 相同 的 数 层 ， 并 利用 了 残 差 学 习 在 LR 空间 中 提取 特征 ， 使 用 子 像素 
据 结构 上 放大 相同 倍数 其 峰值 信 噪 比 和 运算 速度 都 有 提升 。 卷 积 层 对 最 终 LR 特征 进行 放大 。 
VDSR(accurate image super-resolution using very deep 23 ”基于 分 层 特 征 学 习 的 模型 
convolutional networks) 是 由 Kim 等 人 5 提出 的 一 种 基于 非常 大 多 数 深 度 SISR 模型 没有 充分 利用 原始 低 分 辨 率 (LR) 
深 的 卷 积 网 络 的 高 度 准 确 的 方法 ， 该 方法 将 插值 预 处 理 的 图 图 像 的 分 层 特征 ， 导 致 性 能 相对 较 低 。 密 集 网 络 (DenseNet) 


像 作为 输入 ， 通 过 将 卷 积 层 与 残 差 网 络 相 县 来 增加 网 络 深度 姑 其 基于 分 层 特征 学 习 的 优点 ， 被 应 用 到 SISR 中 解决 此 问 
(20 层 )， 使 得 越 深 的 网 络 层 拥有 更 大 的 感受 野 ， 同 时 利用 残 题 。 

差 学 习 和 自 适 应 梯度 裁剪 (adjustable gradient clipping) 加 快 收 例如 SRDenseNetl60 充 分 运用 了 DenseNet 的 思想 ， 首 先 
敛 过 程 ， 在 卷 积 前 填充 零 ， 以 保持 所 有 要 素 图 〈 包 括 输出 图 是 用 一 个 卷 积 层 学 习 低 层 的 特征 ， 接 着 用 多 个 稠密 块 学 习 高 
像 ) 的 大 小 相同 ， 模 型 解决 了 不 同 倍数 的 超 分 状 率 问题 。 层 的 特征 ， 然 后 通过 几 个 反 卷 积 层 学 到 上 采样 滤波 器 参数 ， 
于 VDSR 模型 的 输入 和 输出 相似 ， 其 损失 函数 如 式 〈2) 所 最 后 通过 一 个 卷 积 层 生成 高 分 辩 率 输出 。 该 模型 的 损失 函数 
Te 如 式 C5) 所 示 。 
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该 模型 在 SISR 问题 上 取得 了 不 错 的 结果 。 对 内 部 重建 的 结果 进行 细节 补偿 。 


Zhang 等 人 [1 提出 了 一 种 新 的 残 差 密集 网 络 (residual 
dense network，RDN)， 该 网 络 的 灵感 同样 来 自 于 DenseNet, 
该 模型 充分 利用 原始 LR 图 像 中 的 所 有 分 层 特征 。 其 主要 思 本 节 将 从 实验 的 角度 对 几 种 基于 深度 学 习 的 单 图 像 超 分 
想 为 : 利用 残 差 密集 块 (RDB) 来 提取 密集 连接 卷 积 层 的 丰富 辩 率 模型 进行 比较 分 析 ， 首 先 给 出 了 模型 的 性 能 评价 指标 ， 
局 部 特征 ;然后 使 用 RDB 中 的 局 部 特征 融合 自 适 应 地 学 习 然后 在 不 同 数据 库 上 比较 和 分 析 几 种 单 图 像 超 分 辩 率 重建 模 
来 自 先 前 和 当前 局 部 特征 的 更 有 效 特征 ， 并 提高 在 更 广泛 网 型 的 性 能 。 
络 训练 时 的 稳定 性 ， 在 完全 获得 密集 的 局 部 特征 之 后 ， 使 用 3.1 图 像 质量 评估 标准 
全 局 特征 融合 ， 以 整体 方式 联合 和 自 适 应 地 学 习 全 局 分 层 特 SISR 模型 的 评价 通常 分 为 主观 评价 和 客观 评价 两 大 类 。 
JE; 通过 全 局 残 差 学 习 ， 将 浅 特征 和 深 特 征 结合 在 一 起 ， 从 主观 评价 即 征求 人 的 意见 ， 由 人 决定 图 像 分 辨 率 的 高 低 。 主 
而 产生 原始 LR 图 像 的 全 局 密集 特征 。 观 评价 方法 目前 的 评价 标准 常用 的 方法 为 平均 主观 意见 分 
Zhou 等 人 [所 基于 DenseNet 结合 高 频 上 了 利用 高 ^ MOS (mean opinion score) 1 外， 即 假设 打分 规则 为 “最 差 ” 到 
频 信息 增强 密集 连接 卷 积 神经 网 络 (SRDN) 的 超 分 辩 率 模型 ， “优秀 ”五 个 等 级 。 参 与 者 根据 所 看 到 的 的 图 像 与 原 图 像 的 
使 网 络 更 加 注重 训练 过 程 中 边缘 和 纹理 等 高 频 区 域 的 重建 。 差别 给 出 等 级 数 。 


3 ”实验 结果 与 分 析 


QI 
Bm 
en 
E. 


24 “基于 高 频 细节 特征 的 模型 为 了 验证 模型 的 有 效 性 ， 除 了 直观 地 与 真 图 进行 视觉 对 
尽管 现 有 模型 使 用 更 快 更 深 的 神经 网 络 在 SISR 的 准确 。“ 比 外 ， 还 需要 利用 评价 指标 定量 分 析 模 型 的 性 能 。 当 前 党 
性 和 速度 方面 取得 了 突破 ， 产 生 的 估计 值 具有 较 高 的 峰值 信 ”客观 测量 的 方法 有 
党 比 ， 但 当 出 现 大 规模 的 放大 时 ， 通 常 缺乏 高 频 细 节 ， 并 且 a) 峰值 信 噪 比 (peak signal to noise ratio, PSNR), i&— 
在 无 法 与 较 高 分 状 率 预期 的 保 真 度 相 匹 配 ， 因 此 解读 图 像 的 。 种 简单 且 广 泛 使 用 的 SISR 测量 方法 ， 它 通过 均 方差 (MSE) 
细节 是 一 个 亟待 解决 的 问题 。 进行 定义 。 假 设 两 个 mxn MERRIN 天， 如果 一 个 为 另外 
生成 式 对 抗 网 络 常用 于 解决 此 类 问题 。 例 如 Ledig 等 个 的 噪声 近似 ， 那 么 PSNR 定义 为 
I 基于 GAN 提出 了 一 种 用 于 图 像 超 分 辩 率 的 生成 对 抗 网 络 "m "m 
SRGAN, 通过 生成 式 和 判别 器 的 交 蔡 执行 ， 充 分 提取 高 频 信 PAE = HAROEN en RA EM 
息 。 它 是 第 一 个 能 够 推断 在 放大 4 倍 的 情况 下 ， 照 片 依然 各 MSE 定义 为 
真 的 框架 。 访 模型 的 主要 思想 是 提出 了 一 种 感知 损失 数 NE " 
公式 为 a E ERA 
Bo P o.aem th: MAX: 是 表示 图 像 点 颜色 的 最 大 数值 。 两 幅 图 像 间 的 
LUE (6) ”PSNR 值 (单位 dB) 越 高 , 则 重建 图 像 相 对 于 高 分 辩 率 图 像 失 
perceptual loss(for VGG based content loss) 真得 越 少 o 
它 包括 内 容 丢 失 和 对 抗 性 损失 。 其 中 内 容 损失 可 以 是 基 b) 结 构 相 似 性 (structural similarity index method, 
于 均 方 误 差 的 损失 函数 ; SSIVDtel, 采 用 更 加 直接 的 方法 来 比较 重建 图 像 和 参考 图 像 
0 的 结构 。SSIM 测量 测量 由 三 种 对 比 模块 组 成 ， 分 别 为 亮度 、 
I = mg Dra Bara 05 600,2 O 对比度、 结构 。 假 设 给 定 两 幅 大 小 为 MN 的 图 像 X. Y, 
VO WUBI a x fa y psa AE X A Y WOED o v uy AÈ 


E y r En EN OT- oT (8) 35. 3, 表示 。 定 义 亮度 、 对 比 度 、 结 构 的 比较 函数 分 别 为 
对 抗 性 损失 则 使 用 鉴别 器 网 络 将 解决 方案 推 向 自然 图 像 


流 形 ,该 网 络 被 训练 以 区 分 超 分 辨 图 像 和 原始 照片 真实 图 像 。 n = TET a2) 
对 抗 损失 为 dis 
ri clon, GU) o) nn = (13) 

另外 ， 该 模型 使 用 由 感知 相似 性 驱动 的 语义 丢失 来 蔡 换 s 
像素 空间 中 的 相似 性 方法 ,视觉 效果 较 其 他 方法 有 显著 提高 。 em 
文献 [64] 将 DenseNet 作为 GAN 网 络 的 体系 结构 解决 了 图 像 uu, + c3 
超 分 辩 率 问题 Zhang 等 人 es 利用 GAN 从 LR 中 生成 了 清晰 这 三 个 成 分 因素 综合 起 来 就 是 SSIM 指标 如 式 (15) 所 示 。 
而 真实 的 HR 图 像 。 ui " " 

利用 在 线 检索 的 信息 是 高 频 信息 补偿 的 另 一 种 方法 。 例 | 
如 杨 文 瀚 等 人 69 为 了 弥补 歧义 性 造成 的 高 频 细节 损失 ， 提 出 SSIM 值 越 趋 近 于 1， 则 两 幅 图 相似 度 越 高 。 
了 一 种 基于 深度 网 络 、 利 用 在 线 检 索 的 数据 进行 高 频 信息 补 c) 信息 保 真 标准 (information fidelity criterion, IFC)， 通 
偿 的 图 像 超 分 辩 率 重建 算法 。 该 方法 通过 三 条 分 支 预测 高 分 。 过 计算 待 评 图 像 与 参考 图 之 间 的 信息 来 衡量 待 评 图 像 的 质量 
辩 率 重建 结果 来 构建 一 个 深度 网 络 ， 一 条 旁 路 直接 将 输入 的 ME ERANA PSNR 相同 。 


低 分 辨 率 图 像 输入 到 网 络 的 最 后 一 层 ， 一 条 内 部 高 频 信息 重 3.2 实验 结果 对 比 

建 路 径 基 于 低 分 辩 率 图 像 回 归 预 测 高 分 辩 率 图 像 ， 重 建 高 分 本 节 针 对 多 种 单 图 像 超 分 辩 率 重建 的 深度 学 习 模型 在 不 
辨 率 图 像 的 主要 结构 ， 另 一 条 外 部 高 频 信 息 补 偿 路 径 根据 内 ” 同 数 据 集 下 进行 实验 对 比 和 数据 分 析 。 实 验 所 用 数据 集 包括 
部 重建 的 结果 ， 从 在 线 检索 到 的 相似 图 像 中 提取 高 频 细节 ， Set5、Set14、image91 和 DIV2K 数据 集 。 实 验 所 有 环境 如 表 
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1 所 示 。 
表 1 实验 环境 的 配置 参数 


Table 1 Experimental environment configuration parameters 


WE, F: ATRAF A h$ RDI E E EN A RE 


参数 数值 参数 数值 
操作 系统 Ubuntu 14.04 CUDA 版 本 CUDA8.0 
CPU Intel Xeon 2.10GHz cuDNN 版 本 cudnn-7.5 
GPU GeForceGTX1080/8G tensorflow-GPU 1.2.0 
RAM 32G/DDR3/2.10GHz keras 2.0.0 
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加 了 模型 的 深度 ， 提 高 模型 的 性 能 ， 通 过 密集 网 络 和 生成 式 
秆 抗 网 络 充 分 利用 图 像 的 层 间 特征 和 高 频 特征 ， 达 到 更 好 的 
视觉 效果 ， 间 接 说 明了 研究 深度 学 习 算法 的 必要 性 。 在 未 来 
还 需 进一步 深入 学 习 深 度 学 习 的 算法 , 探索 更 好 的 网 络 模型 ， 
进而 达到 更 好 的 单 图 像 超 分 辩 率 重建 效果 ， 这 也 是 单 图 像 超 
分 辨 率 重 建 的 一 个 研究 重点 和 难点 。 

表 2 不 同 算法 的 定量 结果 比较 


Table 2 Comparison of quantitative results of different algorithms 


> 


实验 对 比 了 七 种 SISR 算法 , 包括 传统 的 SISR 算法 
(Bicubic)、 基 于 插值 预 处 理 的 模型 ( 如 SRCNN 和 DRCN), 
基于 原始 图 像 的 模型 (ESPCN、FSRCNN)、 基 于 分 层 特征 学 
习 的 模型 (SRDenseNet) 以 及 基于 高 频 细节 信息 的 模型 
(SRGAN). 
图 6 可视化 地 展示 了 部 分 Sets 数据 集 在 五 种 算法 上 的 运 
行 结果 。 从 左 到 右 依 次 为 BICUBIC、SRCNN、ESPCN、DRCN、 
SRGAN。 第 一 列 为 原始 图 像 ， 可 以 发 现 BICUBIC 方法 ， 只 


Set5 Bicubic SRCNN DRCN ESPCN FSRCNN SRDenseNet SRGAN 


PSNR 28.42dB 30.09dB 31.52dB 30.90dB 30.71dB 32.02dB 29.90dB 
SSIM 0.8211 0.8627 0.8938 0.8784 0.8657 0.8934 0.8472 
MOS 1.97 2.57 3.26 2.89 2.74 3.37 3.58 
Time 0.016s 0.136s 0.298s 0.047s  0.102s 0.3194s — 0.3264s 
4 小结 
单 图 像 超 分 辩 率 重建 是 计算 机 视觉 领域 的 一 项 基础 研究 


是 简单 进行 了 插值 方法 ， 较 原始 图 像 可 视 化 效果 较 差 ， 
SRCNN 算法 在 插值 放大 的 基础 上 进行 了 卷 积 操作 ， 所 以 其 
可 视 化 效果 较 BICUBIC 算法 有 所 提高 ， 但 是 因为 只 有 三 个 


工作 ， 可 以 作为 后 续 许 多 研究 的 先导 性 操作 ， 具 有 十 分 重要 
的 理论 研究 意义 和 实际 应 用 价值 。 本 章 将 进一步 总 结 梳 理 基 
于 深度 学 习 的 单 图 像 超 分 辩 率 重建 的 关键 问题 ， 并 对 未 来 的 


卷 积 层 ， 所 以 输出 结果 存在 边缘 过 于 平滑 问题 。 可 视 化 结果 
较 好 的 为 SRGAN 算法 ， 其 次 是 DRCN， 说 明 随 着 网 络 层 数 
的 加 深 ， 提 取 的 信息 越 来 多 ， 图 像 重建 效果 也 越 来 越 好 。 


BICUBIC SRCNN 


图 6 部 分 方法 在 Set5 数据 集 上 的 可 视 化 结 
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Fig.6 Visualization results of partical methods on Set5 dataset 
表 2 给 出 了 相同 的 Set 数据 集 上 , 原 图 放大 四 倍 情况 下 
不 同 算法 的 定量 分 析 结 果 。 从 表 中 可 以 看 出 ， 在 所 有 算法 较 
非 深度 学 习 算 法 (Bicubic) 其 PSNR、SSIM 值 和 MOS 值 都 有 
所 提高 ， 这 也 证 实 了 深度 学 习 算 法 在 SISR 问题 上 的 优势 。 


发 展 趋势 进行 展望 。 

a) 现 有 算法 优化 。 现 有 的 单 图 像 超 分 辨 率 算法 虽然 在 
PSNR 和 SSIM 值 上 有 了 很 大 的 提升 ， 但 是 其 可 视 化 效果 并 
没有 达到 人 们 的 预期 ， 具 有 较 大 的 发 展 空间 。GAN 网 络 虽 然 
在 一 定 程 度 上 提高 了 可 视 化 的 效果 ， 但 其 PSNR 和 SSM fü 
BUR H. GAN 本 身 存在 不 稳定 的 问题 。 所 以 未 来 的 工作 应 
考虑 在 已 改进 GAN 网 络 的 基础 上 结合 当前 较 新 的 算法 如 
ResneXt 算法 、indRNN( 独 立 循环 神经 网 络 ) 算 法 ， 提 高 训练 
结果 可 视 化 ， 提 高 训练 结果 定量 分 析 值 ， 保 证 网 络 模型 的 稳 
定性 。 
b) 理 论 知识 的 指导 。 单 图 像 超 分 辩 率 重建 的 理论 研究 与 
数字 图 像 领域 联系 较为 密切 ， 需 深入 理解 分 析 领 域 知识 ， 将 
其 理论 思想 如 超 分 辩 率 重建 的 理论 极限 、 图 像 高 低 分 辩 率 信 
息 之 间 的 关系 等 借鉴 到 单 图 像 超 分 辩 率 重建 的 研究 中 ， 会 是 
未 来 的 一 个 热点 研究 方向 。 

实际 场景 应 用 需求 。 人 工 智 能 火热 发 展 的 同时 ， 匈 
交通 、 视频 监控 、 光 学 文字 识别 等 方面 的 应 用 需求 日 益 增 力 
对 此 ， 如 何 结合 实际 应 用 场景 ， 将 特定 领域 的 先 验 信息 与 深 
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就 时 间 方 面 , 传统 的 方法 因 其 结构 较为 简单 , 用 时 最 短 ， 
但 是 其 图 像 失真 较为 严重 。 现 有 深度 学 习 方 法 中 ，ESPCN 和 
FSRCNN 是 在 SRCNN 的 基础 上 对 结构 进行 的 改进 ， 其 速度 
较 SRCNN 分 别提 高 了 0.089 s 和 0.034 s, DRCN 和 
SRDenseNet, SRGAN 因为 其 网 络 层 数 较 多 ， 所 以 耗 时 较 久 。 

就 PSNR 和 SSM 而 言 ， 所 有 深度 学 习 的 方法 ， 因 为 其 
端 到 端 学 习 的 优势 ， 所 以 PSNR 和 SSIM 值 比 传统 方法 均 有 
所 提高 。 其 中 SRDenseNet 算法 因为 结合 了 密集 残 差 网 络 的 
思想 ， 充 分 利用 了 层 与 层 之 间 的 特征 信息 ， 所 以 其 PSNR 和 
SSM 的 值 在 七 组 实验 中 均 属于 最 高 ， 分 别 为 32.02 dB 和 
0.893 4。 

在 视觉 方面 MOS 值 最 高 的 是 SRGAN 方法 ， 其 值 高 达 


度 网 络 结构 、 代 价 函 数 以 及 训练 方式 结合 是 一 个 有 潜力 的 
究 方向 。 

d) 新 的 评价 标准 的 制定 。 现 有 的 主观 评价 方法 不 仅 繁琐 
且 昂 贵 ， 需 要 大 量 人 力 ， 而 且 也 无 法 应 用 部 署 到 基于 输出 质 
量 反 馈 实 时 自我 调整 的 自动 系统 中 。 基 于 客观 评价 的 标准 则 
大 多 依赖 于 图 像 的 均 方 误差 ， 利 用 了 像素 之 间 的 相似 性 ， 没 
有 充分 考虑 图 像 的 内 容 损 失 ， 所 以 有 必要 综合 考虑 时 间 、 均 
方 误差 、 内 容 损失 三 者 之 间 的 关系 ， 在 现 有 评价 标准 的 基础 
制定 一 套 更 加 准确 、 灵 活 的 新 衡量 标准 ， 这 是 未 来 极 具 价 
值 的 研究 方向 。 

总 之 ， 在 未 来 很 长 的 一 段 时 间 内 ， 基 于 深度 学 习 在 单 图 
像 超 分 辨 率 重 建 将 会 取得 更 大 的 进展 ， 因 此 仍 需 研究 者 提出 


3.58， 这 是 因为 SRGAN 方法 充分 考虑 的 原始 图 像 的 高 频 细 
节 信 息 ， 通 过 利用 内 容 损失 函数 在 视觉 上 生成 更 符合 真实 图 
像 的 超 分 辩 率 图 像 ， 但 是 其 PSNR 和 SSIM 值 有 待 提高 。 总 
之 ， 现 有 算法 依然 没有 达到 理想 的 效果 。 

综 上 所 述 ， 上 述 算法 综合 性 能 较 优 的 是 SRDenseNet 
法 ， 但 是 其 时 间 和 视觉 效果 仍 有 待 提高 。 相 对 于 传统 的 单 
像 超 分 辩 率 重建 模型 ， 通 过 利用 循环 神经 网 络 和 残 差 网 络 
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更 多 有 创新 性 实用 性 的 模型 和 方法 。 
5 ”结束 语 

本 文系 统 总 结 了 目前 基于 深度 学 习 的 图 像 超 分 辩 率 重建 
中 的 相关 模型 ,结合 对 比 实验 分 析 了 现 有 模型 的 存在 的 问题 ， 
并 提出 了 一 些 具 有 实际 参考 价值 的 建议 ， 总 结 了 未 来 发 展 趋 
势 和 所 面临 的 挑战 ， 为 深入 研究 葛 定 了 基础 。 


录用 定稿 WE, €: 基于 深度 学 习 的 单 图 像 超 分 状 率 重建 研究 综述 
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